1
Os Três Pilares da IA Generativa
AI030Lesson 2
00:00

Imaginemos um mundo onde a inteligência artificial não apenas reconhece um pôr do sol, mas sim cria um do nada. Esse é o salto paradigmático em relação aos modelos discriminativos—que se concentram em calcular a probabilidade $p(output|input)$ para rotular dados existentes—para o amplo domínio da IA Generativa. Estamos nos movendo além dos limites do passado para modelar a própria distribuição de dados subjacente.

Os Três Pilares da Síntese Base Tradicional: p(saida | entrada)⚔️GANsAdversarial🌫️DifusãoRemoção de Ruído🔗TransformadoresSequência

Definindo o Terreno Arquitetônico

Nossa taxonomia é dominada por três estratégias matemáticas distintas, cada uma oferecendo vantagens únicas para síntese multimodal e síntese de imagens:

  • Redes Geradoras Adversariais (GANs): Um duelo de alto risco entre duas redes neurais—o gerador (o falsificador) e o discriminador (o detetive). Essa interação adversarial obriga o gerador a criar conteúdos cada vez mais indistinguíveis.
  • Modelos de Difusão: Um processo de encontrar ordem no caos. Esses modelos aprendem ao adicionar e remover ruído de forma iterativa dos dados, eventualmente dominando a capacidade de moldar representações robustas a partir de estáticas puras.
  • Transformadores Autoregressivos: Os arquitetos das sequências. Modelos como o Transformador Pré-treinado Gerador (GPT) operam ao prever o próximo token com base no contexto de tudo o que veio antes, criando narrativas e estruturas coerentes de longo alcance.
Sinergia Arquitetônica
Inovações modernas raramente usam um único pilar isoladamente. Sistemas como o Stable Diffusion utilizam um Transformador para entender seu prompt de texto e um Difusão processo para manifestar os pixels visuais, muitas vezes aproveitando as eficiências do espaço latente encontradas em Codificadores Variacionais (VAEs).